Multilingual Summarization Experiments on English, Arabic and French (Résumé Automatique Multilingue Expérimentations sur l'Anglais, l'Arabe et le Français) [in French]
نویسندگان
چکیده
The task of multilingual summarization aims to design free-from language systems. Extractive methods are in the core of multilingual summarization systems. In this paper, we discuss the influence of various basic NLP tasks: sentence splitting, tokenization, stop words removal and stemming on sentence scoring and summaries' coverage. Hence, we propose a statistical method which extracts most relevant sentences on the basis of their terms discriminant power. We conduct several experimentations in a multilingual context: English, Arabic and French using the TAC MultiLing 2011 dataset. Mots-clés : Résumé multilingue, analyse discriminante, TAL, évaluation multilingue.
منابع مشابه
Pre-processing and Language Analysis for Arabic to French Statistical Machine Translation (Traduction automatique statistique pour l'arabe-français améliorée par le prétraitement et l'analyse de la langue) [in French]
متن کامل
Identification of Arabic/French Handwritten/Printed Words using GMM-Based System
The discrimination between languages is one of the first steps in the problem of automatic documents text recognition. In many documents, such as bank checks and application forms, printed and handwritten texts are mixed. In this paper, an automatic identification system of Arabic and French words in both handwritten and printed script based on Gaussian Mixture Models (GMMs) was presented. A fi...
متن کاملPorting a Summarizer to the French Language
Résumé. Nous présentons dans cet article l’adaptation de l’outil de résumé automatique REZIME à la langue française. REZIME est un outil de résumé automatique mono-document destiné au domaine médical et s’appuyant sur des critères statistiques, syntaxiques et lexicaux pour extraire les phrases les plus pertinentes. Nous décrivons dans cet article le système REZIME tel qu’il a été conçu et les d...
متن کاملA Methodology for semi-automatic structuring of a bilingual lexicographical corpus: the French-Kabyle case (Méthodologie pour la structuration semi-automatique du corpus dans une perspective de traitement automatique des langues : le cas du dictionnaire français-kabyle) [in French]
Résumé L’objectif de cette contribution est de proposer une méthodologie nouvelle de structuration de corpus à l’aide d’outils informatiques récents permettant aux linguistes non-spécialistes en informatique de constituer des corpus structurés en vue de leur exploration par des outils de traitement automatique des langues naturelles. Il s’agit, plus exactement, de présenter le processus d’infor...
متن کاملPronoun Anaphora Resolution for Automatic Correction of Grammatical Errors (Correction automatique par résolution d'anaphores pronominales) [in French]
Résumé. Cet article décrit des travaux réalisés dans le cadre du développement du correcteur automatique d’un logiciel commercial d’aide à la rédaction du français. Nous voulons corriger des erreurs uniquement détectables lorsque l’antécédent de certains pronoms est connu. Nous décrivons un algorithme de résolution des anaphores pronominales intraet interphrastiques s’appuyant peu sur la corres...
متن کامل